تکنیکهای خلاصهسازی چندسندی خودکار متون فارسی مبتنی بر الگوریتمهای فرااکتشافی
نویسندگان
چکیده مقاله:
هدف:ارائه الگوی خلاصهسازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصهسازی به مسئله بهینهسازی توسط الگوریتمهای فرااکتشافی سازگار. روششناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونههای خبری از خبرگزاریهای پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیدهای و 5 خلاصه استخراجی است. ابتدا عملیات پیشپردازش روی متون ورودی انجام و خلاصههای اولیه تولید شدند. این کار بهکمک معیار TF-ISF، معیارهای خوانایی و انسجام جملات، ویژگی شباهت با عنوان، ویژگی موقعیت جمله در متن، و ویژگی طول جمله انجام شد. با توجه به هر یک از این معیارها، وزنی به هر یک از جملات خلاصه اختصاص داده و ماتریس شباهت ایجاد شد. سپس، خروجی سیستم استخراج توسط دو الگوریتم فرااکتشافی ژنتیک و جستجوی فاخته برای رسیدن به خلاصه نهایی پردازش شد. درنهایت، خروجی بهدستآمده از مرحله قبل بهکمک ابزار ارزیابی Rouge و مقایسه با خلاصههای انسانی تحلیل شدند. یافتهها: میانگین همه مقادیر بهدستآمده از ابزار ارزیابی Rouge در محاسبه میزان همپوشانی نمونههای مشترک خلاصههای انسانی و خلاصه ماشینی توسط الگوریتم جستجوی فاخته بیشتر از مقادیر بهدستآمده توسط الگوریتم ژنتیک و همچنین سامانه خلاصهساز برخط ایجاز بودند. از میان هشت معیار موجود در این ابزار، دو معیار ارزیابی طولانیترین زیررشته مشترک با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتایج بهتری نسبت به بقیه معیارها داشتند. نتیجهگیری: نتایج حاصل از مقایسه دو الگوریتم بهکاررفته، حاکی از عملکرد بهتر الگوریتم جستجوی فاخته در هر یک از معیارهای ابزار Rouge است. از طرفی مقایسه زمانی نتایج نشان میدهد که میانگین زمانی محاسبهشده برای خلاصهسازی توسط سیستم پیشنهادی با الگوریتم جستجوی فاخته کمتر است.
منابع مشابه
تشخیص خودکار جنسیت نویسنده در متون فارسی
Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...
متن کاملخلاصه سازی خودکار متون فارسی مبتنی بر هستی شناسی
با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های س...
15 صفحه اولتشخیص خودکار جنسیت نویسنده در متون فارسی
با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می شود. موضوع مورد بررسی در این تحقیق که مربوط به حوزه شناسایی ن...
متن کاملاستخراج خودکار عبارتهای کلیدی از متون مقالههای فارسی
در پژوهش حاضر، عبارتهای کلیدی از متون مقالههای فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونهای که در طول زمان مرتباً به کارایی آن افز...
متن کاملسیستم خودکار خلاصه ساز متون فارسی
دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...
مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی
Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 30 شماره 2
صفحات 58- 80
تاریخ انتشار 2019-07-23
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023